eBook - erstellt aus den Beschreibungen - First Draft

Was für ein Programm verwendet du eigentlich um die Daten der Webseite zu extrahieren und in ein E-Book umzuwandeln?
Aus Interesse, womit werden die Beschreibungen extrahiert?

ein C# Program (.NET) lädt die Beschreibung runter und versucht aus dem ersten Posting die entsprechenden Daten zu extrahieren und schreibt diese Information in eine SQL Datenbank. Aus allen Posting einer Sortenbeschreibung wird versucht die Bilder automatisch runter zuladen und ebenfalls in der Datenbank zu speichern.
Nachdem alle Beschreibungen in die DB geschrieben wurde, wird direkt in der DB noch ein paar Korrekturen vorgenommen.
Im Anschluss wird mit Mail Merge Funktion von Word und der Datenbank ein Dokument mit den Sortenbeschreibungen erstellt und diesen Inhalt wird in ein Template eingefügt welches das Layout des Dokument vorgibt.
Aufgrund des geänderten Seitenlayout gibt es ein paar Beschreibungen die mehr als 1 Seite beanspruchen und bei diesen wird dann noch das Bild etwas verkleinert, so dass die Beschreibung wieder auf eine Seite passt.
Im Anschluss wird das Worddokument noch in eine Pdf-Datei konvertiert.

Aufgrund der recht starren Mailmerge Funktion bei der Behandlung von leeren Felder, versuche ich derzeit das Worddokument direkt zu generieren, so dass leere Felder weggelassen werden könnten.
 
  • Like
Reaktionen: mph
Oh ein Buch… von dem Buchprojekt hatte ich bisher noch gar nichts mitbekommen. :sorry:

Mit Verlaub, aber Arial ist für Schriftsatz oft nicht geeignet. …
Yepp!
Serifenlose Schriften sind bei längerem Fließtext nicht so gut zu lesen wie Serifenschriften. Das liegt auch daran, daß die Serifen für das Auge wie Linien wirken auf denen die Buchstaben stehen und man daher nicht so schnell in der Zeile verrutscht.
 
Zuletzt bearbeitet von einem Moderator:
Serifenlose Schriften sind bei längerem Fließtext nicht so gut zu lesen wie Serifenschriften.
Das hängt vom Medium ab.
Gedruckt kann man Schriften mit Serifen ca. 20% schneller lesen.

Am Monitor hängt es von der Auflösung ab.
Bei sehr scharfen Monitoren z.B. 4K-Monitor gilt das auch.

Bei weniger scharfen Monitoren, lässt sich eine Schrift mit Serifen erheblich schlechter lesen.
Monitore unter Full-HD und große Monitore mit Full-HD sind immer noch sehr weit verbreitet. Business-Notebooks, günstige Tablets, e-Book-Reader haben häufig Bildschirme mit sehr geringer Auflösung.

HÄUFIGSTE BILDSCHIRMAUFLÖSUNGEN:
 
Bin auch eher zufällig auf das Projekt gestoßen und finde es ganz toll! :thumbsup: Das wird mit Sicherheit viel Arbeit!
Zu den ganzen programmtechnischen Problemen kann ich keine Stellung beziehen, da bin ich überfordert!
Die aktuelle Diskussion über die "Schriften" könnte man m. E. erst mal hinten an stellen, bis das Buch erst mal als Ganzes steht! Feinheiten erst zum Schluss, ist aber nur meine persönliche Meinung!;)
Zur Sache:
Als wesentliches Manko ist mir beim ersten Reinschauen aufgefallen, dass der Text aus den Beschreibungen nicht immer vollständig übernommen wird, der wird dann manchmal irgendwo mitten im Satz einfach abgeschnitten!:whistling:
 
klasse, dass nimmt ja wirklich sehr gute Form an

ich reite noch ein wenig an der Beschreibung zur Serrano Purple rum:
158880


zur Schärfe ist -wie auch schon Volker grad schrieb- die Info abgeschnitten
unter "Eigene Erfahrungen" wird der Text aus "Beschreibung" wiederholt...

Ich hab dann im PDF weiter gescrollt zur "Shakira" und dort unter "Andere Namen" den Text "Capsicum annuum" gefunden, im EBook-Betrag steht das nicht, sondern "---"

Insgesamt stört mich noch ein wenig die Bildauswahl. Gibt es dazu Überlegungen?

Noch am Rande: im PDF ist der Link zum Download fehlerhaft, führt mich zur Suchseite des Forums...

Grüße, P.
 
Auch ich habe den Thread gerade erst entdeckt. Und ich muss sagen, das ich gerade echt ein wenig sauer gefahren bin!

@daniel2012: Ich habe dich mehrfach, sowohl im Weltrekordthread als auch via PN nach deinem Interesse an der von mir erstellten Anbauplanung gefragt und nie eine Antwort bekommen. Jetzt lese ich hier auch noch, das du ein C# Programm erstellt hast um eine SQL Datenbank zu befüllen und daraus anschließend dieses eBook generierst. Das ist ganz zufällig exakt das Aufgabengebiet in meinem Job! Ich könnte dir gerade einmal sprichwörtlich eine "Bratpfanne über den Kopf hauen".

Und ich dachte wir sind ein Forum und ziehen alle an einem Strang! Aber gut ... wieder was gelernt!

Sorry Leute, aber ihr kennt mich. ich bin was das angeht ehrlich und direkt ... auch hier im Forum muss das möglich sein!
Inhaltlich werde ich mir das eBook dann in den kommenden Tagen mal anschauen und meinen Senf auch dazugeben!
 
So, habs mir jetzt auch mal am PC angeschaut. Da müsste doch noch einiges an Arbeit reingesteckt werden.

Wie schon erwähnt hören manache Beschreibungen immer noch mittten im Satz auf.

Ein Bild mit zumindest einer Frucht drauf fände ich schon besser, es hilft nicht viel, wenn als erstes Bild im Beitrag ein Keimling zu sehen ist und nur dieses Bild dann übernommen wird.
Ob es Technisch möglich ist, alle Bilder gleichgroß darzustellen weiß ich nicht, manche kleinen Bilder scheinen sehr pixelig zu sein.
 
Kleinigkeiten:

1) Unterschiedliche Formatierung für "Schärfe"
158892


2) das "/" -Zeichen sollte einheitlich immer von 2 Leerzeichen umgeben werden, oder (wie in den Beiträgen) ganz ohne

158893



3) Trennung der Angaben zu Reifung und Reifezeit (das ist in den Beiträgen iwie netter, weil zusammenhängend und entspräche zudem der "Vorlage")

158894


4) aus "grün > rot" (laut Beitrag) wird
158895


5) es gibt lt. der Vorlage einen Punkt "Weiter Infos"... werde diese Angaben gar nicht übernommen?

Soll es erstmal wieder gewesen sein, bis später

P.
 

Anhänge

  • 1556006912235.png
    1556006912235.png
    17 KB · Aufrufe: 261
ich verweise hier auf die PN vom 17. Nov 2018 und später - da hatte ich Dir dies geschrieben.
Ich habe die PN leider nicht mehr. Mir ging es hier auch nicht um eine Beweisführung! Ich denke wir wissen beide was gemeint ist... und damit ist gut, zumindest für mich!
 
beim Aufbereiten der Daten gab es einen grossen Fauxpax insofern dass aufgrund Copy&Paste bei direkten DB Update die Beschreibung in andere Felder kopiert wurden, wenn in diesen Felder bestimmte HTML tags ersetzt werden mussten.
Angepasst wurde gleichzeitig:
- Schriftgrösse beim Schärfe
- Leerzeichen nach / bei "Geschmack / Geruch / Aroma"
- Reifung und Reifezeit gruppiert

und Alexander wird wohl in den nächsten Stunden eine neue Version publizieren.

Zum Thema abgeschnitte Texte gibt es leider noch keinen Fix, da das Parsen angepasst werden muss, so dass Formatierungen innerhalb des Textes nicht als Ende des Textes behandelt werden.

Bei Capezzoli di Scimmia liegt das Problem darin, dass sich nicht an die Vorlage für Sortenbeschreibung gehalten wurde und daher der Text nicht extrahiert wreden.

Überdies gibt es ein paar Einträge in der Sortenbeschreibungen wo der erste Beitrag erstellt aber nicht ausgefüllt wurde und erst in weiteren Beiträgen wurde dann die Sorte dokumentiert. Solche Beschreibungen können nicht ins eBook übernommen werden, da nur das erste Posting ausgewertet wird und bei weiteren Postings werden dann nur noch Bilder extrahiert. z.b. Capsicum lanceolatum (@Hombre kannst Du die Beschreibung vom zweiten Posting übertragen?)

Betreff der Wahl des Bildes gibt es momentan eine Hürde da immer das erste Bild genommen wird - bei 4 Sorten ersetze ich dieses manuell da dort eine Wachstumskurve gespeichert ist.
Ideal wäre wenn das Bild irgendwie markiert werden könnte, so dass dann dieses Bild benutzt würde (damit würde auch die Möglichkeit eröffnet weitere Bilder im eBook aufzunehmen.
 
Zuletzt bearbeitet:
…Bei Capezzoli di Scimmia liegt das Problem darin, dass sich nicht an die Vorlage für Sortenbeschreibung gehalten wurde und daher der Text nicht extrahiert wurden.…
:sorry:
Damals (März 2016) war die Idee des E-Books in dieser Form auch nicht nicht da, so daß die Beschreibung nicht maschinen-, sondern „nur“ menschenlesbar sein mußte.
Ich habe mal versucht, den Beitrag passend zu überarbeiten.
 
Zurück
Oben Unten